音声情報処理 04
⾳声の記号化
国際⾳声記号(International Phonetic Alphabet)
国際⾳声学会(International Phonetic Association)が設定
⺟⾳
⾆の位置と唇のすぼめに応じて論理的に定義
⼦⾳
調音位置:⾳源がどこで⽣成されるか
調音様式:⾳源がどのように変形するのか
⾳声記号
⼦⾳分類
横軸:調⾳位置
縦軸:調⾳様式
⼦⾳分類で近い場所は,類似した⾳
⾳声記号と⾳素記号
単⾳
対象となる⾔語⾳
⼤括弧[]で表現
⽇本語では,[a]も[α]も「あ」
⾳素
⾔語ごとの認知特性によった最⼩単位
1つの⾳素に対する複数の単⾳:異⾳
上記の「あ」の例
⾔語のどの⾳かが識別できれば良い
⾳声記号
⾔語⾮依存:IPAによって厳密に定義
記号化と⾳声の認識
⾳声の認識
「⼊⼒⾳声→単語列」の変換
⾳声から⾔語的情報を抽出
システムだけでなく,⼈間の知覚も同様の仕組み
⾳声認識の難しさ
⾳響的難しさ
⾔語的難しさ
⾳声認識の難しさ
⾳響的難しさ
⾳響的難しさ:同⼀⽂字列に複数の⾳響信号が対応
⾳素環境による各⾳素の⾳響的変動
前後の⾳素で各⾳素の⾳響は変わる
さんば、
発声スタイルによる⾳響的変動
読み上げ,会話,感情表現
話者の違いによる⾳響的変動
雑⾳などの環境の違いによる⾳響的変動
会話時には怠けた発⾳になりがち
⽇本語の⺟⾳も英語の⺟⾳に近づいていく
⾔語的難しさ
未知語への対処
⾳声認識は,単語辞書に基づいて⾳声を認識
辞書中の単語を使って⽂字列を構成:
辞書にない言葉は認識できない
会話特有の冗⻑な⾔葉への対処
フィラーや⾔い淀み,⾔い直しなど:認識時のノイズになる
発話者や環境によって各ノイズの頻度や分布は異なる
⾔語的な妥当性を基にして認識を補助
⾳声認識の難しさが⽣み出すエンタメ
空⽿アワー
テレビ朝⽇系列「タモリ倶楽部」内の⼈気コーナー
⽇本語以外で歌われているが,⽇本語のように聴こえる歌詞
参照する辞書が異なることによって発⽣する聞き間違い
仕組み
⾳楽中で歌唱されることで⾳響的変動が⼤きくなる
例
聖飢魔II:不思議な第三惑星
岡崎体育:Natural lips
分析
⾳素記号列間のレーベンシュタイン距離で計測
レーベンシュタイン距離
DP 動的計画法
モンデグリーン(mondegreen)
同⾔語内でのフレーズの聞き間違い
正しい辞書を参照していても発⽣する聞き間違い